KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat svenskt ord förutsägelse. Linjär regressionslinje genomsnittlig förändring i en variabel (X) relativt förändring i en annan variabel (Y). Om vi använder variabeln X för att predicera variabeln Y kallas linjen för regression av Y på X. Korrelation kausalitet där ˆ Y = predicerad poäng b = linjens lutning a = int ercept med Y ˆ Y =bx +a (6.1; s.135) 1
X = 0, Y = 2 X = 3, Y = 3.5 X = 1, Y = 2.5 X = 4, Y = 4 X = 2, Y = 3 X = 5, Y = 4.5 Y = 0.5X + 2.0 2
Exempel 1. Blyghetsdata. 10 autentiska datapunkter (personer) på blyghetsmått (X) och nervositetsmått (Y). "Anser Du att Du är blyg/nervös"? "Nej, inte alls" till "Ja, mycket" (0 101). X Y X2 Y2 XY 1 5 1 25 1 5 2 72 60 5184 3600 4320 3 12 0 144 0 0 4 11 0 121 0 0 5 18 27 324 729 486 6 62 44 3844 1936 2728 7 1 11 1 121 11 8 6 18 36 324 108 9 16 20 256 400 320 10 30 48 900 2304 1440 233 229 10835 9415 9418 M 23.3 22.9 s 24.51 21.53 r =.86 n = 10 3
s X = x 2 (x) 2 n n 1 (3.14; s. 77) r XY = n XY X Y n X 2 ( X ) 2 [ ][ n Y 2 ( Y ) 2 ] (5.3; s. 113) Beräkningsformler för lutningskoefficient och intercept: b = n XY X Y n X 2 ( X ) 2 (6.2; s. 138) a = ( Y b X ) n = Y bx (6.3; s.138) 4
Lutningskoefficienten, alternativt beräkningssätt: där b = (r) s Y s X (6.4; s. 138) r = korrelation mellan variablerna X och Y s Y = standardavvikelse för Y-poängen s X = standardavvikelse för X-poängen Ex 1: Blyghetsdata. b = 10(9418) (233)229 10(10835) (233) 2 =.76 a = 229 (0.76)233 10 = 5.19 ˆ Y = 0.76X + 5.19 ˆ Y = 0.76(20) + 5.19 = 20.39 5
X Y Y ˆ e=y Y ˆ e 2 =(Y ˆ Y ) 2 1 5 1 8.99 7.99 63.84 2 72 60 59.91 0.09 0.0081 3 12 0 14.31 14.31 204.78 4 11 0 13.55 13.55 183.60 5 18 27 18.87 8.13 66.10 6 62 44 52.31 8.31 69.06 7 1 11 5.95 5.05 25.50 8 6 18 9.75 8.25 68.06 9 16 20 17.35 2.65 7.02 10 30 48 27.99 20.01 400.40 0.02* 1088.37 *Skall vara 0, men blev 0.02 p.g.a. avrundningsfel. 6
Standardpoäng: ˆ Y = bx + a; z = X X s Alltså: ˆ Y = bx + (Y bx ), därför: ˆ Y = Y + b(x X ). där a = Y bx (3.15; s. 79) Genom att byta ut b-värdet från formeln blir ekvationen via ˆ Y = Y + (r) s Y s X (X X ) ˆ Y Y s Y = r X X s X till slut z ˆ Y = rz X (6.6; s. 141) 7
Andra personen i Blyghetsdata, exempel 1: X = 72; X = 23.30; s X = 24.51; r =.86 z X = (72 23.30)/24.51 = 1.99 z ˆ Y = (.86)(1.99) = 1.71 8
Prediktionsfel e = (Y ˆ Y ) (6.7; s. 142) Medelvärdet för felen (e ) = 0; eftersom e = e n = 0 n = 0 Variansen för estimatet: 2 s Y X = ( e e ) 2 n 2 Eftersom e = 0, kan man förenkla formeln till 2 s Y X = e 2 n 2 (6.8; s. 142) (6.9; s. 142) Standardfelet för estimatet: s Y X = e 2 n 2 (6.10; s. 142) 9
Alternativt (snabbare att beräkna) s Y X = s [ Y 1 r 2 ][ (n 1) (n 2) ] (6.11; s. 143) När (n 1)/(n 2) 1 kan formeln förenklas till s Y X = s Y 1 r 2 (6.12; s. 143) Exempel 1. Blyghetsdata s Y X = 1088.37 10 2 = 11.66 alternativt [ ] s Y X = 21.53 1 (.86) 2 10 1 10 2 = 11.65 10
Betingade fördelningar: Fördelningen av de observerade Y-värden som har samma X-värde kallas för betingad fördelning (conditioned distribution). X 1 : X 2 : X 3 : ˆ Y 1 = 0.76(10) + 5.19 = 12.79 ˆ Y 2 = 0.76(15) + 5.19 = 16.59 ˆ Y 3 = 0.76(20) + 5.19 = 20.39 11
X = poäng på blyghetsskalan; Y = poäng på nervositetsskalan X Y X 2 Y 2 XY 1 5 1 25 1 5 2 72 60 5184 3600 4320 3 12 0 144 0 0 4 11 0 121 0 0 5 18 27 324 729 486 6 62 44 3844 1936 2728 7 1 11 1 121 11 8 6 18 36 324 108 9 16 20 256 400 320 10 30 48 900 2304 1440 233 229 10835 9415 9418 M 23.3 22.9 r =.86 12
X Y Y ˆ e=y Y ˆ e 2 =(Y Y ˆ ) 2 1 5 1 8.99-7.99 63.84 2 72 60 59.91 0.09 0.0081 3 12 0 14.31-14.31 204.78 4 11 0 13.55-13.55 183.60 5 18 27 18.87 8.13 66.10 6 62 44 52.31-8.31 69.06 7 1 11 5.95 5.05 25.50 8 6 18 9.75 8.25 68.06 9 16 20 17.35 2.65 7.02 10 30 48 27.99 20.01 400.40 0.02 1088.37 13
KAPITEL 17: LINEAR REGRESSION: ESTIMATION AND HYPOTHESIS TESTING Predicerade värden och betingade fördelningar Om X = 70, vad är då sannolikheten att Y är större än 80? Om X = 20, vad är då sannolikheten att Y är mellan 15 och 23? ˆ Y = 0.76(70) + 5.19 = 58.39 z = X X s z = Y ˆ Y s Y X (3.15; s. 79) (17.1; s.465) Exempel ur Blyghetsdata 14
z = 80 58.39 11.65 = 1.85 15
Konfidensintervall i linjär regression Om X = 70, vilka är de sannolika värdena på Y? Vad är sannolikheten att Y ligger i ett visst intervall? Blyghetsdata-exemplet: X = 70 och ˆ Y = 58.39; där CI = ˆ Y ± (t cv )(s ˆ Y Y ˆ = predicerat värde t cv = kritiskt värde för t (df = n - 2) s ˆ Y ) (17.3; s. 466) = standardfel för det predicerade värdet s ˆ Y = s Y X 1 + 1 n + (X X )2 SS X där SS X = (n 1)s X 2 (17.2; s. 466) 16
För exemplet i Blyghetsdata: s ˆ Y = 11.65 1 + 1 n + (70 23.30)2 (10 1)600.74 = 7.40 CI = Y ˆ ± (t kv )(s ) Y ˆ CI 95 = 58.39 ± (2.306)(7.40) = 58.39 ± 17.06 = (41.33; 75.45) 17
Signifikanstesta lutningskoefficienten H 0 : β = 0 = H 0 : ρ = 0 b = r(s Y s X ) b = 0(s Y s X ) = 0 a = Y bx a = Y 0(X ) = Y När r = 0: ˆ Y = bx + a ˆ Y = 0(X) + Y = Y (s. 468) 18
SIGNIFIKANSPRÖVNING AV LUTNINGS- KOEFFICIENTEN: 1. Ställ upp hypoteserna H 0 : β = 0 H a : β 0 2. Ställ upp kriteriet för att förkasta H 0 t-fördelningen med n 2 frihetsgrader Exempel ur Blyghetsdata: ˆ Y = 0.76X + 5.19 α =.05: tcv (8) = ± 2.306 19
Standardfelet för regressionskoefficienten: s b = s Y X SS X (17.4; s. 470) där s Y X = standardfelet för prediktionen eller skattningen SS X = sum of squares för prediktorvariabeln (X), eller (X X ) 2 2, eller (n 1)s X s b = 11.65 (10 1)600.74 = 0.16 Two-tailed vid α =.05, tcv (8) = ± 2.306 20
3. Utför det statistiska testet: t = statistik parameter standardfelet av statistiken t = b β s b eller (17.5; s. 470) alt. t = b β s Y X SS X (17.6; s. 470) t = b β s Y X (X X ) 2 alt. t = b β s Y X (n 1)s X 2 (alltså: standardfelet för statistiken kan uttryckas på olika sätt beroende på hur man väljer att uttrycka de kvadrerade avvikelserna från medelvärdet i X-variabeln...) t = 0.76 0 0.16 = 4.75 21
4. Tolka resultaten! tobs = 4.75 > tcv = ± 2.306 H0: β = 0 vs. H0: ρ = 0 t obs = r n 2 1 r 2 (10.7; s. 236) där df = n 2 Blyghetsdata: t obs =.86 8 1 (.86) 2 = 4.77 α =.05: tcv (8) = ± 2.306 22
KAPITEL 18: MULTIPLE LINEAR REGRESSION ˆ Y = b 1 X 1 + b 2 X 2 +...+ b k X k + a Multipel regression i formen av standardiserade poäng: (18.1; s. 480) Geometriskt förändras mätskalan på axlarna till en standardskala och hyperplanet kommer därmed att gå genom origo i systemet (punkten med koordinaterna [0, 0,..., 0]). z ˆ Y = β 1z 1 + β 2 z 2 +...+ β k z k (18.3; s. 482) Regressionskonstanten (a) har försvunnit eftersom interceptet är 0. 23
Vid två prediktorer: β 1 = r Y 1 (r Y 2 )(r 12 ) 1 r 12 2 β 2 = r Y 2 (r Y 1 )(r 12 ) 1 r 12 2 där r Y 1 = korrelationen mellan kriteriet (Y) och den första prediktorvariabeln (X 1 ) (18.4; s. 482) r Y 2 = korrelationen mellan kriteriet (Y) och den andra prediktorvariabeln (X 2 ) r 12 = korrelationen mellan de två prediktorvariablerna (X 1 och X 2 ) 24
Multipel regression i formen av råpoäng: b 1 = β 1 b 2 = β 2 s Y s 1 s Y s 2 (18.5; s. 482) Därefter kan man beräkna regressionskonstanten (a): a = Y k b i X i (18.6; s. 483) i=1 25
1. Bestäm regressionsmodellen β 1 = r Y 1 (r Y 2 )(r 12 ) 1 r 12 2 β 1 =.8597 (.8872)(.8965) 1.8965 2 =.3277 β 2 = r Y 2 (r Y 1 )(r 12 ) 1 r 12 2 β 2 =.8872 (.8597)(.8965) 1.8965 2 =..5934 zy = 0.3277z1 + 0.5934z2 26
b 1 = (.3277) 21.5275 24.5087 =.2878 b 2 = (.5934) 21.5275 19.4479 =.6568 a = 22. 90 (. 2878)(23. 30) (. 6568)(16. 00) = 5. 6855 Råpoängsformen: Y = 0.2878X1 + 0.6568X2 + 5.6855 27
2. Bestäm R och R2 ˆ Y = b 1 X 1 + b 2 X 2 +...+ b k X k + a Obs! R går mellan 0 och 1. R Y 12 k = z Y z ˆ Y ns zy s z ˆ Y (18.7; s. 486) Genom att byta ut z Y och z ˆ Y samt förenkla ekvationen får vi: R Y 12 k = β 1 r Y 1 + β 2 r Y 2 + + β k r Yk (18.8; s. 486) Exempel 2. R Y 12 k = (.3277)(.8597)+(.5934)(.8872)=.8990 28
R är korrelationskoefficienten mellan poäng på kriterievariabeln (Y) och predicerade poäng för kriterievariabeln ( Y ˆ ), beräknat med den linjära kombinationen av prediktorvariablerna. R2 =.89902 =.8082 3. Bestäm om multipla R är signifikant H0: Rpop = 0 F = R 2 / k (1 R 2 ) / (n k 1) (18.9; s. 486) där k = antalet prediktorer F-fördelningen med df (k, n - k - 1) 29
Exempel 2. α =.05; Fcv (2, 7) = 4.74 F =.6532/2 (1.6532) /(10 2 1) = 6.59 Fobs > Fkv: förkasta H0! 30
4. Bestäm signifikansen på prediktorerna För varje regressionskoefficient: Om vi testar H 0 : β = 0, så: t = b β s b = b β s b = b i 0 s bi t = b i s bi (18.10; s. 487) där b i = regressionskoefficient s bi = standardfel för respektive koefficient t-fördelningen med n k 1 frihetsgrader 31
Standardfelet för estimatet för den multipla regressionen: s Y X = e 2 n 2 = (Y ˆ Y ) 2 n 2 = SS Y (1 r2 ) n 2 s Y 12 k = (Y Y ˆ ) n 2 k 1 = SS Y (1 R 2 ) n k 1 (18.11; s. 488) 32
Standardfelet för den första regressionskoefficienten (b1): s b1 = 2 s Y 12 k 2 SS X1 (1 R 1 23 k ) (18.12; s. 488) där 2 s Y 12 k = det kvadrerade standardfelet av skattningen SS X 1 = den kvadrerade avvikelsen för den första prediktorn, eller (X i1 X 1 ) 2 =(n 1)s 2 X 1 2 R 1 23 k = kvadrerade multipla R när X 1 är kriteriet och X 2 t.o.m. X k är prediktorer (När man har två prediktorer blir det r2 12 i stället se 18.13; s.489!) 33
Exempel 2. R 2 =.8082 n = 10 k = 2 SS Y = 4170.8993 SS X1 = 5406.0874 SS X 2 = 3403.9873 r 12 2 = (.8965) 2 = 0.8037 s Y 12 = 4170.8993(1.6532)/7 = 14.3749 s b1 = 14.3749/5406.0874(1.8037) = 0.1164 s b2 = 14.3749/3403.9873(1.8037) = 0.1467 H 0 : β 1 = 0 (vs. b 1 = 0.2878) t cv (7) = 2.365 (vid α =.05) t obs = 0.2878/0.1164 = 2.4725* H 0 : β 2 = 0 (vs. b 2 = 0.6568) t obs = 0.6568/0.1467 = 4.4772* 34
Att välja prediktorer Man vill finna de variabler som: korrelerar högt med kriteriet och som inte korrelerar särskilt högt med varandra. Antalet prediktorer: Om k + 1 = n, så blir R 2 = 1 Adjusted R 2 = 1 (1 R 2 n 1 ) n k 1 där (18.14; s. 491) R 2 = unadjusted R 2 k = antalet prediktorer n = antalet observationer Finess: ger mer konservativ skattning av andelen varians i kriteriet som kan attribueras till de kombinerade prediktorerna. 35
PARTIELL KORRELATION OCH PARTKORRELATION 36
Partiell korrelation, beräkningsformel: r YZ X = r YZ r XY r XZ 2 2 (1 r XY )(1 r XZ ) (18.16; s. 503) Exempel 3. r YZ X =.4535 (.9512)(.5112) (1.9048)(1.2613) r YZ X =.0328.2652 =.1237 37
Partkorrelation, beräkningsformel: r Z(Y X ) = r YZ r XY r XZ 2 1 r XY (18.17; s. 504) Exempel 3. r Z(Y X ) =.4535 (.9512)(.5112) 1 (.9512) 2 r Z(Y X ) =.0328.3086 =.1063 38
Varianter av multipel regression Backward Forward Stepwise 39
Multipelregression och ANOVA Exempel 4. 18 individer delades upp i tre åldersgrupper. Personerna fick svara på följande fråga: "Hur stor risk är det, anser Du, att Du ska råka ut för en allvarlig trafikolycka när Du reser med bil (som förare)?". Svaren kunde gå från 0 ("Ingen risk alls") till 101 ("Stor risk"). Åldersgrupper 30 år 31 50 år51 år 22 39 26 26 43 32 20 41 30 26 38 28 22 40 31 20 45 30 H0: µ1 = µ2 = µ3 Ha: µi µk för några i, k K = 3 och N = 18 α =.05 Fcv = 3.68 df (K 1, N K) = 2, 15 40
Summary ANOVA Table: Source SS df MS F Fcv SS B /K-1 = MS B /MS W = Between 1030.11 2 515.06 81.47 3.68 SS W /N-K = Within 94.83 15 6.32 N 1 = Total 1124.94 17 41
X1 X2 Y X1Y X2 1 Y2 X2Y X2 2 X1X2 1 0 22 22 1 484 0 0 0 1 0 26 26 1 676 0 0 0 1 0 20 20 1 400 0 0 0 1 0 26 26 1 676 0 0 0 1 0 22 22 1 484 0 0 0 1 0 20 20 1 400 0 0 0 0 1 39 0 0 1521 39 1 0 0 1 43 0 0 1849 43 1 0 0 1 41 0 0 1681 41 1 0 0 1 38 0 0 1444 38 1 0 0 1 40 0 0 1600 40 1 0 0 1 45 0 0 2025 45 1 0 0 0 26 0 0 676 0 0 0 0 0 32 0 0 1024 0 0 0 0 0 30 0 0 900 0 0 0 0 0 28 0 0 784 0 0 0 0 0 31 0 0 961 0 0 0 0 0 30 0 0 900 0 0 0 6 6 559 136 6 18485 246 6 0 42
Beräkning av R 2 och signifikanstest: r Y1 = r Y1 = r Y 2 = r 12 = n X 1 Y X 1 Y n X 2 1 ( X1 ) 2 [ ][ n Y 2 ( Y ) 2 ] 2448 3354 (108 36)(332730 312481) =.7503 4428 3354 (108 36)(332730 312481) =.8895 0 36 (108 36)(108 36) =.5 β 1 = r Y1 (r Y 2 )(r 12 ) 1 r 2 12 =.7503 (.8895)(.5) 1 (.5) 2 =.4075 β 2 = r Y 2 (r Y1 )(r 12 ) 1 r 2 =.8895 (.7503)(.5) 12 1 (.5) 2 =.6858 R Y 12 k = β 1 r Y 1 + β 2 r Y 2 + + β k r Yk R = (. 4075)(. 7503) + (. 6858)(. 8895) =. 9570 43
R 2 =.9570 2 =.9158 H 0 :R pop = 0 α =.05 df (k, n k 1) = 2, 15 F cv = 3.68 F obs = R 2 /k (1 R 2 )(n k 1) =.9158/2 (1.9158)/15 = 81. 5736 44
R 2 SS T = Förklarad sum of squares (.9158)(1124.94) = 1030.2201 = SSB (1030.11) (1 R 2 ) SS T = oförklarad (error) sum of squares (1.9158)(1124.94) = 94.7199 = SS W (94.83) 45
Y = blyghet, X 1 = nervositet, X 2 = osäkerhet Y X 1 X 2 1 5 6 60 72 65 0 12 0 0 11 1 27 18 16 44 62 26 11 1 3 18 6 6 20 16 14 48 30 23 229 233 160 M 22.90 23.30 16.00 r Y 1 =.8597 s 21.5275 24.5087 19.4479 r Y 2 =.8872 r 12 =.8965 X 2 1 =10835; X 2 2 = 5964; Y 2 = 9415; X 1 Y = 9418; X 2 Y = 7007; X 1 X 2 = 7574 46
X = ålder; Y = upplevd risk; Z = upplevd oro X Y Z 1 22 92 1 2 26 70 4 3 59 3 63 4 77 6 50 5 67 0 41 251 171 47 YZ = 2571 Y 2 =13409 Z 2 =1039 XY = 4483 X 2 =15059 XZ =1740 r YZ =.4535 r XY =.9512 r XZ =.5112 47
30 år 31 50 år 51 år (I) (II) (III) 22 39 26 26 43 32 20 41 30 26 38 28 22 40 31 20 45 30 ANOVA-tabell Källa SS df MS F Fkv Mellan 1030.11 2 515.06 81.47 3.68 Inom 94.83 15 6.32 Totalt 1124.94 17 48
X1 X2 Y 1 0 22 1 0 26 (I) 1 0 20 1 0 26 1 0 22 1 0 20 0 1 39 0 1 43 (II) 0 1 41 0 1 38 0 1 40 0 1 45 0 0 26 0 0 32 (III) 0 0 30 0 0 28 0 0 31 0 0 30 49